Basado en "ChatGPT is not all you need. A State of the Art Review of large Generative AI models"
Publicado: 11 de Enero de 2023
Objetivo Central: Este documento representa una fotografía del estado del arte de la IA generativa a principios de 2023, catalogando la explosión de grandes modelos ocurrida en los dos años previos. Busca describir y clasificar los modelos más relevantes según su función y aplicación, señalando su impacto potencial en diversos sectores.
Título Completo: "ChatGPT is not all you need. A State of the Art Review of large Generative AI models" por Roberto Gozalo-Brizuela y Eduardo C. Garrido-Merchán.
Enfoque Deliberado: Los autores limitan explícitamente el alcance, centrándose en las capacidades y los resultados (el qué) en lugar de ofrecer una inmersión técnica profunda en las arquitecturas subyacentes (el cómo detallado). Esto lo hace accesible para profesionales de distintas industrias que pueden beneficiarse o verse afectados por estos modelos.
Definición: Sistemas de IA capaces de crear contenido novedoso y coherente (texto, imágenes, código, audio, etc.) que no existía previamente en esa forma exacta.
Contraste Clave: Se diferencia de:
Mecanismo Básico: Aprenden patrones y estructuras de datos masivos para luego generar nuevas muestras siguiendo esa distribución aprendida, a menudo a partir de un "prompt" o entrada inicial.
Transformers
: Arquitectura neuronal fundamental, especialmente buena para manejar secuencias y dependencias a largo plazo (crucial para texto y código). Base de muchos modelos como GPT, LaMDA, BERT.Modelos de Difusión
: Técnica popular para generación de imágenes (y video/audio), que refina iterativamente el ruido hasta formar una muestra coherente. Usada en Imagen, Stable Diffusion, Dreamfusion.CLIP
: Modelo que aprende una conexión semántica entre imágenes y texto, permitiendo guiar la generación de imágenes con descripciones textuales (usado en DALL-E 2, Soundify).RLHF
(Aprendizaje por Refuerzo con Retroalimentación Humana): Método para alinear las respuestas de modelos de lenguaje (como ChatGPT) con las preferencias y la intención humana, mejorando la utilidad y seguridad.Espacio Latente
: Espacio abstracto de alta dimensión donde los modelos representan la información (semántica, estilo). Operar en este espacio (como hace Stable Diffusion) puede ser más eficiente.Establece el escenario: la reciente proliferación y el poder transformador de la IA Generativa. Conecta la viabilidad actual con los avances en datos, algoritmos (Deep Learning, Transformers) y poder computacional. Plantea el impacto disruptivo en sectores específicos (arte, academia) y la necesidad de adaptación humana (colaboración vs. reemplazo).
El Eje Organizativo: La clasificación por modalidad de entrada/salida (Texto → Imagen, Imagen → Texto, etc.) es la contribución estructural clave del paper.
Modelos destacados: DALL-E 2, Stable Diffusion, Imagen, Parti, Muse
Generan imágenes a partir de descripciones textuales, con distintos enfoques de eficiencia y calidad.
Modelos destacados: ChatGPT, LaMDA, PaLM, Codex
Generan texto coherente o código funcional a partir de instrucciones en lenguaje natural.
Modelos destacados: DreamFusion, Magic3D, Point-E
Crean modelos tridimensionales a partir de descripciones textuales.
Modelos destacados: AudioLM, MusicLM, VALL-E
Generan sonidos, música o voces a partir de descripciones o ejemplos textuales.
Modelos destacados: Make-A-Video, Phenaki, Imagen Video
Crean secuencias de video a partir de descripciones textuales.
Modelos destacados: DALL-E Inpainting, Stable Diffusion, ControlNet
Transforman imágenes existentes mediante ediciones, mejoras o cambios de estilo.
Modelos destacados: BLIP, GIT, Flamingo
Generan descripciones, análisis o respuestas basadas en imágenes.
Modelos destacados: Whisper
Transcriben o traducen audio a texto con alta precisión.
Modelos destacados: Gato, Flamingo, GPT-4
Integran múltiples tipos de entrada y salida en un único sistema.
Balance Crítico: Presenta una visión equilibrada de las capacidades asombrosas (creatividad, personalización, eficiencia) frente a las limitaciones y desafíos significativos.
Direcciones Futuras: Necesidad de mejorar la precisión, la eficiencia, la interpretabilidad, el control ético y la capacidad de razonamiento y verificación de hechos.